快手旗下可灵AI发布“主体库”,为O1多模态视频模型增加长期记忆功能。用户上传单张角色图,系统可生成3D视角补全和多光线变体,支持跨场景一键调用角色,主体一致性超96%。流程包括上传图片自动处理、AI补全多角度视图,实现从单图到3D记忆的转换。
腾讯开源混元世界模型1.1,支持多视图和视频输入,实现单卡部署并提升生成速度。该模型能在数秒内从视频或图片生成专业3D场景,推动3D重建技术普及,让普通用户轻松使用专业工具。
VideoFrom3D框架革新3D图形设计,通过融合图像与视频扩散模型,从几何形状、相机路径和参考图生成逼真且风格统一的3D场景视频。无需依赖昂贵配对数据,简化流程,助力设计师高效探索创意、快速产出高质量成果。核心在于互补扩散模型的创新应用。
上海交大团队推出Gen3DHF数据集,专用于评估AI生成的3D人脸质量。该数据集包含2000个样本,旨在解决生成式AI在3D人脸真实性评估中的挑战,尤其针对虚拟现实等应用场景中人类主观感知的敏感性。
1.3B参数的图像转视频模型,用于生成3D一致的新场景视图
通过多实例扩散模型将单张图像生成高保真度的3D场景。
生成任何3D和4D场景的先进框架
从文本描述生成高质量的3D室内场景。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
kvuong2711
AerialMegaDepth是一个专注于空地重建与视角合成的深度学习模型,能够从航拍图像中重建3D场景并生成新视角。
VAST-AI
MIDI是一款面向单图像生成组合式3D场景的生成模型。
Kai422kx
DAS3R是一种用于静态场景重建的3D模型,采用动态感知高斯泼溅技术,能够从图像生成高质量的3D重建效果。
strangerzonehf
基于LoRA微调的3D萌系卡通风格文本生成图像模型,可生成高质量的3D卡通角色和场景
基于LoRA微调的文本生成图像扩散模型,专注于生成等轴测3D风格的场景和物体
WizWhite
一个用于生成纸质微缩模型的LoRA模型,擅长创作平面纸板场景和3D纸质物件,具有复古风格。
davizca87
Coinmaker是一款专门用于生成硬币资产的LORA模型,基于SDXL 0.9训练而成。它能让电子游戏、渲染等场景中的硬币资产创建变得更加轻松、有趣且美观,尤其适用于3D投影和3D软件中的挤压建模。
该项目是一个连接Claude桌面应用与Unreal Engine 5.3的Python服务器,通过文本指令实现3D场景的创建与编辑,支持基础物体生成、蓝图调用和场景操作等功能。